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融合 协同 过 滤 的 XGBoost 推荐 算 
齐 德 法 !'， 徐 连 诚 ，'， 朱 振 方 ? 


(1. 山东 师范 大 学 信息 科学 与 工程 学 院 , 济南 250358; 2. 山东 交通 学 院 信息 科学 与 电气 工程 学 院 , 济南 250357) 


摘 要 : 在 推荐 系统 中 ， 针 对 用 户 的 冷 启动 问题 ， 提 出 一 种 融合 协同 过 滤 的 XGBoost 推荐 算法 。 根 据 基于 用 户 相 似 
度 的 协同 过 滤 推 荐 算法 进行 粗 粒度 召回 ， 得 到 部 分 分 用 户 的 召回 集 ， 使 用 XGBoost 算法 对 召回 集中 的 项 目 进 行 预测 。 
对 于 存在 冷 启动 问题 的 用 户 ， 直 接 使 用 0 直行 预测 。 该 算法 采用 CCIR2018 个 性 化 推 
荐 评测 的 在 线 评测 数据 集 ， 并 将 推荐 结果 投放 到 知 乎 提供 的 线 上 平台 进行 评测 。 评 测 结果 表明 ， 该 算法 可 以 地 解决 
用 户 的 冷 启动 问题 ， 具 有 很 高 的 执行 效率 ， 准 确 度 高 ， 在 线 上 评测 中 取得 显著 的 推荐 效果 ， 并 获得 三 等 奖 。 
关键 词 : 协同 过 滤 ; 冷 启动 ; XGBoost; 推荐 系统 
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XGBoost recommendation algorithm with collaborative filtering 


Qi Defal, Xu Liancheng''i, Zhu Zhenfang” 
(1. School of Information Science & Engineering, Shandong Normal University, Jinan 250358, China; 2. School of 
Information Science & Electrical Engineering, Shandong Jiaotong University, Jinan 250357, China) 


Abstract: In the recommendation system, this paper proposed an XGBoost recommendation algorithm to integrate 
collaborative filtering based on the cold-start problem of users. Firstly, it uses coarse grain to recall according to the 
collaborative filtering recommendation algorithm based on user similarity, and get a recall set of some users. Then using 
XGBoost algorithm to predict the items in the recall set. Secondly, for users with cold-start problems, it can directly use 
XGBoost algorithm to predict the items in the candidate set. Finally, the algorithm uses the online evaluation data set of 
CCIR2018 personalized recommendation evaluation, and puts the recommendation results on the online platform provided 
by Zhihu for evaluation. The evaluation results show that the algorithm in this paper can solve the cold-start problem of 
users with high efficiency and accuracy. It has achieved remarkable recommendation effect in the online evaluation platform 
and gets the third prize. 
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3 得 推荐 给 目标 用 户 。 
导 协同 过 滤 是 经 典 的 推荐 算法 ， 其 对 推荐 对 象 没 有 特殊 要 
随 着 互联 网 的 飞速 发 展 ， 信 息 资源 呈现 几何 级 数 增长 ， ” 求 ， 能 够 处 理 复杂 的 对 象 信息 ， 可 解释 性 强 ， 简 单 易 实现 ， 
丰富 的 网 络 信息 给 用 户 带 来 极 大 的 便捷 ， 使 用 户 能 够 通过 网 。 因此 协同 过 渡 推 荐 算法 被 广泛 应 用 。 在 实际 应 用 场景 中 ， 协 

"三 。 络 获 取 更 多 的 知识 信息 。 但 数据 规模 的 爆炸 式 增长 中 却 产 生 。” 同 过 滤 存 在 冷 启动 问题 。 冷 启动 问题 是 指 在 推荐 系统 中 ， 缺 
了 信息 过 载 的 问题 ， 用 户 在 大 量 的 信息 中 很 难 获取 到 真正 需 ” 少 用 户 历史 行为 数据 ， 系 统 无 法 得 到 用 户 的 个 人 偏好 ， 最 终 
要 的 数据 信息 。 传 统 搜索 引擎 的 出 现 解决 了 大 数据 时 代 初 期 。 导致 系统 推荐 效果 较 差 。 例 如 ， 当 系统 不 存在 或 者 存在 少量 
着 息 过 载 的 问题 ， 但 随 着 互联 网 的 进一步 发 展 ， 传 统 的 搜索 。 的 用 户 历史 交互 记录 时 ， 将 无 法 得 到 目标 用 户 的 相似 用 户 。 
引擎 已 无 法 满足 用 户 的 特殊 需求 ， 因 此 个 性 化 推荐 系统 应 运 。” 同 理 ， 对 于 新 项 目 也 存在 相同 的 冷 启动 问题 。 冷 启动 是 协同 
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而 生 ， 并 成 为 了 解决 信息 过 载 问 题 的 有 效 方法 中。 个 性 化 推 ” 过 滤 推 荐 算法 中 被 广泛 关注 的 问题 ， 冷 启动 问题 的 存在 严 
荐 系统 能 够 根据 用 户 个 人 喜好 自动 进行 信息 推荐 ,减少 信息 ”影响 了 推荐 系统 的 推荐 质量 口 。 


的 元 余 ， 简 化 用 户 的 操作 ， 从 而 带 来 更 好 的 用 户 体验 。 针对 冷 启 动 问题 ， 陈 克 寒 等 人 多 提出 一 种 基于 两 阶段 聚 
个 性 化 推荐 算法 多 种 多 样 ， 传 统 的 推荐 算法 主要 有 基于 类 的 推荐 算法 GCCR， 将 图 摘要 方法 和 基于 内 容 相 似 度 的 算 
内 容 的 推荐 、 协 同 过 滤 推 荐 申 、 混 合 推 荐 三 种 方式 。 基 于 内 ”法 结合 ， 实 现 基于 用 户 兴 趣 的 主题 推荐 ， 于 洪 等 人 中 提 
容 的 推荐 是 根据 用 户 的 历史 交互 记录 ， 挖 气 出 与 目标 用 户 用 户 时 间 权 重信 息 概 念 ,将 时 间 权重 信息 应 用 到 推荐 系统 中 ， 
欢 项 目的 相似 项 目 。 协 同 过 滤 是 根据 用 户 对 项 的 评分 计算 可 以 判断 该 用 户 是 积极 用 户 还 是 消极 用 户 ， 以 及 用 户 对 新 项 
用 户 或 项 目 之 间 的 相似 度 ， 找 出 用 户 或 项 目的 最 近邻 集合 ， 目的 偏爱 程度 ， 该 算法 在 准确 度 和 新 颖 度 都 有 较 好 的 效果 ; 
最 后 产生 推荐 列表 并 进行 推荐 由。 混合 推荐 是 将 多 种 推荐 算 。 Pereira 等 人 四 将 用 户 人 口 统计 信息 引入 到 推荐 算法 ， 形 成 混 
法 按照 一 定 的 规则 组 合 在 一 起 ， 然 后 进行 预测 ， 最 终 将 结果  ” 合 协 同 过 滤 推 荐 算法 ， 可 以 很 好 地 解决 冷 启动 问题 ; 
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Shambour 传统 的 基于 / 户 的 协同 过 滤 推 荐 算法 中 » L(G)= D8,3) + QO(f) O) 
融入 了 项 目 评分 信任 度 的 思想 ， 同 时 按 弃 了 传统 的 相似 度 计 : 


算 方法 ， De 琉 性 问题 ， 又 能 很 好 地 解决 
冷 启动 问题 。 
本 文 算法 则 在 解决 推荐 系统 中 的 冷 启动 问题 ， 同 时 提高 


whereQ( f)= /T+ Ae 


中 : 六 为 预测 值 ，y 为 真实 值 ; :为 损失 函数 :9(A) 为 正 


算法 的 执行 效率 ， 减 少 推荐 过 程 所 消耗 的 时 间 ， 提 高 模型 的 “，” 则 项 ， 上 为 一 棵 决策 树 。XGBoost 算法 还 使 用 了 二 阶 泰 勒 展 
准确 率 ， 改 善 用 户 体验 。 为 了 减少 模型 的 计算 量 ， 本 算法 首 。 ” 开 ， 假 设 第 1 次 的 损失 函数 为 
先 使 用 基于 用 户 的 协同 过 滤 推荐 算法 进行 项 目的 召回 ， 对 于 到 

LAL)= OT(y, PV +f (xn Q(f 
活跃 用 户 ， 可 以 得 到 用 户 的 召回 集 。 召 回 集 的 项 目 数量 远 远 ee 
少 于 候选 集 的 项 目 数量 , 使 用 XGBoost 算法 在 召回 集 上 进行 对 四 做 二 阶 泰 勒 展开 
梧 归 预 测 ， 降 低 了 模型 的 计算 量 ， 提 高 了 预测 效率 。 对 于 历 A 
史 交 互 记录 稀疏 或 者 缺失 的 用 户 ， 此 类 用 户 对 应 的 召回 项 上 Hse han 四 
较 少 ， 甚 至 没有 召回 项 目 。 对 于 该 类 用 户 ， 使 用 XGBoost 


where 8 = 3) 


人 法 直接 在 全 部 候选 集中 进行 预测 ， 虽然 原始 候选 集 的 数据 
量 较 多 ， 但 此 类 用 户 在 推荐 系统 中 所 占 的 比例 很 低 ， 因 此 消 
耗 的 时 间 较 少 。 通 过 本 文 算法 可 以 有 效 地 缓解 用 户 的 冷 启动 
问题 ， 同 时 又 可 以 减少 模型 计算 所 消耗 的 时 间 ， 提 高 算法 的 其 中 : 8; 为 一 阶 导 数 ， 有 为 二 阶 导 数 。 通 过 二 阶 泰勒 展开 ， 
执行 效率 。 通 过 CCIR2018 清华 大 学 与 知 乎 联合 举办 的 个 性 以 加 快 模型 收敛 速度 ， 得 到 全 局 最 优 解 。 
化 推荐 评测 的 在 线 评测 ， 本 文 算 法 取得 了 显著 的 推荐 效果 。 XGBoost 有 原始 XGBoost 库 和 scikit-learn 库 的 两 种 实现 

方式 ， 为 用 户 提供 了 多 种 参数 ， 通 过 调节 不 同 的 参数 ， 得 到 
1 ”相关 工作 最 优 模 型 。XGBoost 库 中 的 基 学 习 器 不 仅 可 以 使 用 CART， 
1.1 协同 过 滤 也 可 以 使 用 线性 分 类 器 。 昔 nh 在 Kaggle 等 比赛 中 取 
协同 过 滤 09 是 经 典 的 推荐 算法 ， 其 在 工业 界 得 到 了 广泛 ”得 了 很 好 的 成 绩 ， 在 工业 界 也 得 到 了 广泛 的 使 用 。 


应 用 。 协 同 过 滤 主 要 分 为 基于 用 户 的 协同 过 滤 、 基 于 项 目的 机 i 

协同 过 涉 和 基于 模型 的 协同 过 滤 。 基 于 用 户 的 协同 过 滤 是 根 ”2 。 融合 协同 过 滤 的 XGBoost 推荐 拭 法 的 模型 构建 
ba 
用 


及 = Go 人 yy ， 7) 


五 


据 用 户 的 历史 行为 ， 挖 掘 出 与 目标 用 户 相 似 的 用 户 ， 然 后 向 本 模型 使 用 协同 过 滤 和 XGBoost 相 融 合 的 算法 进行 
目标 用 户 推荐 其 相似 用 户 所 喜好 的 项 目 ， 基 于 项 目的 协同 过 ” ” 容 推 荐 。 首 先 通 过 协同 过 滤 得 到 用 户 的 召回 集 ; 然后 使 用 
滤 是 根据 项 目的 相似 性 , 向 用 户 推荐 其 喜欢 项 目的 相似 项 目 ， ”XGBoost 模型 对 召回 集中 的 项 目 进行 预测 ， 若 不 满足 推荐 数 
基于 模型 的 协同 过 滤 首 先 根 据 训练 集 数据 ， 采 用 概率 统计 模 ，” 量 ， 则 继续 使 用 XGBoost 对 候选 集 进 行 预测 ;最 终 产 生 推 荐 
型 或 者 机 器 学 习 方 法 建立 模型 《如 潜在 语义 模型 、 贝 叶 斯 模 。 列表。 模型 构建 主要 分 为 三 个 阶段 :首先 是 基于 协同 过 滤 的 
型 、 决 策 树 模型 、 图 模型 等 )， 进 而 通过 模型 预测 目标 用 户 的 ”内 容 召 回 ; 其 次 是 XGBoost 模型 训练 ; 最 后 是 产生 推荐 列表 。 


偏好 [1。 算法 流程 如 图 1 所 示 。 

定义 包含 m 个 用 户 的 集合 0={w,w…,w} ， 包 含 n 个 项 
目的 集合 1={i,s,…,} ,用户 对 项 目的 历史 交互 记录 和 矩阵 5 可 协同 过 滤 
以 表示 为 

Sw 《SDDS 

基于 用 户 的 协同 过 滤 和 基于 项 目的 协同 过 滤 ， 都 是 基于 - 
相似 度 进行 计算 ， 根 据 用 户 对 项 目的 历史 交互 记录 撼 阵 9 ， 人 Gi 
可 以 得 到 相似 用 户 或 者 相似 项 目 ， 最 后 得 到 推荐 列表 。 本 文 | 
相似 度 计算 公式 使 用 Ochiai 系数 02, 该 系数 源 于 生物 学 中 两 
个 地 区 共同 物种 分 布 区 域 的 相似 度 计算 方法 ， 是 余弦 相似 度 xcBoost | 
[03] 的 一 种 形式 。 | 

Ochiai 系数 计算 公式 为 

炙 = |AmB| 
[AlxIa| (1 候选 集 

其 中 : 4 和 B 表示 集合 ;|4| 和 |8| 分 别 表示 和 集合 4 和 B 中 的 
元 素 个 数 。 
1.2 XGBoost 

XGBoostt41 是 由 陈 天 奇 博士 提出 的 Gradient Boosting05] 
算法 ， 是 Gradient Boosting 的 一 种 高 效 系统 实现 ， 其 对 图 1 算法 流程 
GBDTH9I 进 行 了 优化 改进 ， 能 够 并 行 计算 、 近 似 建 树 、 对 稀 Fig.1 Flow of algorithm 
疏 数据 进行 有 效 处 理 , 对 CPU 和 内 存 的 使 用 进行 了 优化 , 使 阶段 1: 基于 协同 过 滤 的 内 容 召 回 。 
其 在 机 器 学 习 领 域 展 现 了 很 好 的 效果 。 输入 : 用 户 历史 交互 记录 。 

首先 ，XGBoost 在 GBDT 的 基础 上 ， 通 过 在 目标 函数 中 输出 : 部 分 用 户 的 召回 集 。 
加 入 正则 化 项 ， 减 小 模型 的 复杂 度 ， 避 人 免 过 拟 合 。 其 目标 函 算法 步骤 : 


数 为 a) 在 训练 集中 提取 每 个 用 户 点 击 的 项 目 。 
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b) 根据 用 户 点 击 项 目 ， 计算 用 户 之 间 的 相似 度 。 其 相似 ”特征 全 部 转换 为 数字 表示 的 特征 ,特征 之 间 才 能 够 进行 计算 ， 
度 8 计算 公式 为 最 终 得 到 目标 函数 。 
mu) (5) 在 评测 数据 集中 ， 特 征 类 型 有 多 种 形式 ， 不 同类 型 的 特 
n(L, )xn(l,) 征 ， 数 据 处 理 方式 不 同 ， 主 要 分 为 时 间 惟 类 型 特征 、 文 本 类 
入 。 由 六 = 型 特征 、 数 字 类 型 特征 。 在 XGBoost 模型 训练 时 ， 需 要 对 特 
其 中 : 表示 第 a 个 用 户 的 历史 交互 项 目 ; 1 表示 第 b 个 征 数据 进行 预 处 理 。 其 处 理 方式 如 表 1 和 2 所 示 。 
用 户 的 历史 交互 项 目 ; n 表示 项 目的 数量 。 表 1 用 户 数据 特征 处 理 
c) 根据 用 户 相 似 度 ,得 到 每 个 用 户 最 相似 的 用 户 ， 然后 Table 1 Feature processing of user data 
将 最 相似 用 户 已 点 击 而 该 用 户 未 点 击 的 项 目 作为 召回 集 ， 但 特征 名 称 特征 样 例 处 理 方式 结果 样 例 
天 存在 冷 启动 问题 ， 该 召回 集 仅 为 部 分 用 户 的 召回 集 。 注册 时 间 1540475871 截取 前 3 位 154 
阶段 2: XGBoost 模型 训练 。 性 别 男 、 女 one-hot 01、10 
输入 : 用 户 的 历史 交互 记录 ， 用 户 的 特征 数据 ， 项 目的 访问 频率 daily、weekly one-hot 001、010 
特征 数据 。 关注 用 户 数 238、25 等 频 划 分 | 
输出 : XGBoost 模型 。 关注 话题 数 128、36 等 频 划分 4, 1 
算法 步 又 : 被 评论 数 63、655 等 频 划 分 Ls 本 
a) 提取 用 户 历史 交互 数据 , 将 存在 点 击 记录 的 项 目 视 为 被 点 赞 数 48、190 等 频 划分 1、4 
1， 不 存在 点 击 记录 的 项 目 视 为 0。 注册 类 型 other one-hot 00010000 
b) 对 数据 进行 均衡 化 , 使 已 点 击 项 目 和 未 点 击 项 目的 比 注册 平台 android one-hot 00000100 
例 为 1:1。 是 否 用 PC 0、1 不 处 理 0、1 
c) 提取 用 户 的 特征 ， 并 对 特征 进行 预 处 理 。 对 于 文本 型 设备 model Mi8 one-hot 00000100 
特征 ， 将 其 转换 为 one-hot 编码 。 对 于 时 间 惟 型 特征 ， 和 截取 户 平台 Xiaomi one-hot 00100000 
前 三 位 数字 。 对 于 数字 型 特征 ， 需 要 进行 离散 化 处 理 。 户 所 在 省 北京 one-hot 00001000 
d) 使 用 XGBoost 进行 模型 训练 ， 并 对 参数 进行 调整 ， 户 所 在 市 北京 one-hot 00100000 
得 到 最 终 模 型 。 表 2 内 容 数 据 特征 处 理 
阶段 3: 产生 推荐 列表 。 Table 2 Feature processing of content data 
输入 : 部 分 用 户 的 召回 集 , 原始 候选 集 , XGBoost 模型 。 特征 名 称 地 征 样 例 处 理 方式 结果 样 例 
输出 : 推荐 列表 。 是 否 匿名 0、1 不 处 理 0、1 
算法 步骤 : 优质 答案 0、 1 不 处 理 0、 1 
a) 使 用 XGBoost 模型 对 部 分 用 户 的 召回 集 进行 预测 ， 是 否 推荐 0、1 不 处 理 0、1 
将 预测 值 大 于 阔 值 的 项 目 作 为 推荐 结果 。 创建 时 站 1540475871 截取 前 4 位 1540 
b) 若 推荐 结果 小 于 10 条 ， 则 使 用 XGBoost 在 原始 候选 是 否 有 图 0、 1 不 处 理 0、 1 
集中 进行 预测 ， 并 将 预测 值 大 于 阔 值 的 项 目 作 为 推荐 结果 。 感谢 次 数 63、655 等 频 划分 1、10 
c) 对 于 存在 冷 启动 问题 的 用 户 , 则 将 此 类 用 户 在 原始 候 赞同 次 数 48、190 等 频 划分 1、 4 
选集 中 进行 预测 ， 并 得 到 推荐 结果 。 搜 藏 次 数 43、152 等 频 划 分 1、4 
d) 将 所 有 推荐 结果 进行 去 重 处 理 , 对 于 历史 交互 记录 已 反对 次 数 和 2 等 频 划 分 1、5 
存在 项 目 ， 不 再 向 用 户 进行 推荐 。 举报 次 数 0、5 不 处 理 0、5 
e) 为 每 个 用 户 提取 推荐 结果 中 的 前 10 条 作为 推荐 列表 ， 3.3 评价 指标 
将 结果 投放 到 线 上 环境 进行 推荐 。 在 推荐 过 程 中 ， 若 推荐 数量 过 少 ， 将 会 导致 推荐 结果 的 
SA 已 人 N 林 偶然 性 ， 使 其 不 具有 说 服 力 ; 若 推荐 数量 过 多 ， 由 于 每 个 用 
3 ”实验 结果 与 分 析 户 浏览 的 时 间 不 同 ， 展 示 的 项 目 数量 不 同 ， 为 浏览 时 间 较 短 
3.1 实验 数据 与 评测 的 用 户 进行 推荐 的 项 目 无 法 全 部 展示 , 其 结果 将 会 产生 误差 。 
本 实验 采用 的 数据 集 是 CCIR2018 个 性 化 推荐 评测 的 在 丸 此 在 评测 中 , 根据 用 户 平均 浏览 数量 , 选择 10 条 项 目 作 为 
线 评测 数据 集 , 该 数据 集 来 自 知 乎 移动 端的 信息 流 推荐 数据 。 推荐 结 
该 数据 集 包 括 用 户 信息 、 内 容 信息 、 用 户 与 内 容 的 历史 交互 在 线 评测 的 评价 标准 计算 公式 如 下 : 
信息 。 其 中 用 户 信息 包括 注册 时 间 、 性 别 、 访问 频率 、 关 注 、 N 
提问 次 数 、 回 答 次 数 、 终 端 设备 、 所 在 地 等 相关 信息 ， 内 容 (6) 
言 息 包括 内 容 对 应 的 问题 d、 是 否 匿 名 、 是 否 被 推荐 、 媒 体 其 中 :Nn 是 用 户 点 击 量 ，Nw 是 当天 10 000 名 用 户 的 在 线 
言 息 、 赞 同 次 数 、 评 论 次 数 、 收 藏 次 数 等 相关 信息 ， 用 户 与 数量 。 同 时 在 12 d 的 推荐 结果 中 选 出 最 高 的 8 d 得 分 ， 然 后 
内 容 的 历史 交互 包括 内 容 展示 的 时 间 、 用 户 点 击 的 时 间 、| 计算 平均 分 。 
户 搜 索 的 时 间 等 信息 。 知 乎 每 天 给 出 10 000 个 用 户 的 历史 交 ”3.4 实验 结果 与 分 析 
互信 息 数 据 以 及 相关 用 户 、 内 容 的 信息 数据 ， 同 时 给 出 候选 1) XGBoost 参数 调整 
集 , 在 候选 集中 为 每 个 用 户 分 别 选择 10 条 内 容 作为 推荐 结果 XGBoost 模型 的 构造 十 分 简单 ， 但 若 提高 模型 的 效果 ， 
从 第 二 天 凌晨 开始 将 该 结果 投放 到 知 乎 线 上 环境 进行 评测 。 则 需要 进行 参数 的 调整 。XGBoost 模型 为 用 户 提供 了 多 类 参 
3.2 数据 预 处 理 数 ， 并 且 提 供 了 便捷 的 CV 函数 供用 户 进行 调 参 。 在 模型 训 
在 数据 集中 ， 不 同 维度 的 特征 具有 不 同 的 量 纲 ， 在 特征 。 练 过 程 中 ， 将 用 户 的 历史 交互 数据 进行 分 割 ，80% 作 为 训练 
选择 中 ， 需 要 对 数据 进行 无 量 纲 化 处 理 。 通 过 将 不 同 维度 的 。 集 ，20% 作 为 测试 集 。 然 后 使 用 CV 函数 得 到 最 优 参数 。 参 
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数 如 表 3 所 示 。 
2) 基于 用 户 的 协同 过 滤 方 法 分 析 


| 
在 数据 集中 ， 用 户 浏览 的 每 条 内 容 都 对 应 着 多 个 话题 类 
型 ， 不 同 的 浏览 内 容 对 应 的 话题 可 能 相同 ， 也 可 能 不 同 。 因 
此 ， 在 计算 用 户 相似 度 时 ， 既 可 以 根据 浏览 的 内 容 进 行 相似 
度 的 计算 ,又 可 以 根据 浏览 内 容 所 属 的 话题 进行 相似 度 计算 。 
本 实验 分 别 使 用 基于 内 容 的 用 户 相似 度 和 基于 话题 的 用 户 相 


后 在 知 乎 线 上 环境 进行 评测 ， 其 测试 结果 如 表 4 所 示 。 
表 3 XGBoost 模型 参数 
Table 3 Xgboost model parameters 


似 度 进行 内 容 召 回 , 然后 使 用 相同 的 XGBoost 模型 进行 计算 ， 
最 


参数 值 
learning rate 0.1 
n_estimators 500 

max_depth 11 
min child weight 1 
gamma 0 
subsample 1 
colsample_bytree 0.8 
nthread 4 
scale pos weight 1 
seed 27 
objective binary:logistic 
num round 200 


score 
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表 4 基于 内 容 和 基于 话题 的 用 户 相 似 度 对 比 


Table 4 Content-based and topic-based user similarity comparison 
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图 2 执行 效率 对 比 


Fig.2 Comparison of execution efficiency 
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图 3 ”模型 融合 结果 对 比 


Fig.3 Comparison of model fusion results 


型 融合 结果 对 比如 图 3 所 示 。 由 图 3 的 评测 结 
融合 协同 过 滤 的 XGBoost 推荐 算法 具有 更 高 的 点 击 率 , 能 够 


E 荐 效果 。 在 实验 过 程 中 ， 由 于 协同 过 渡 


相似 度 闵 值 ”得 分 平均 分 
1.78 
基于 话题 的 用 户 相 似 度 0.3 1.7685 
1.757 
1.827 
基于 内 容 的 用 户 相 似 度 0.1 1.8715 
1.916 
在 实验 过 程 中 ， 基 于 话题 的 用 户 相似 度 计算 的 召回 率 更 
高 ,因此 设置 阐 值 为 0.3, 可 以 为 大 部 分 用 户 进 行内 容 召 回 ; 


基于 内 容 的 用 户 相 似 度 计算 的 召回 率 较 低 ， 较 小 的 病 值 才 可 
以 为 大 部 分 用 户 进 行内 容 的 召回 。 使 用 同样 的 XGBoost 模型 
进行 预测 ， 将 预测 结果 推荐 给 用 户 。 由 结果 显示 ， 基 于 话题 
的 用 户 相 似 度 可 以 提高 召回 率 ， 但 同时 会 导致 准确 率 降低 。 
忆 此 ， 基 于 内 容 的 用 户 相似 度 在 评测 中 得 分 更 高 ， 点 击 率 也 


3) 执行 效率 对 比分 析 

在 数据 集中 ,， 若 仅仅 使 用 XGBoost 算法 ， 则 需要 在 全 部 
候选 集中 进行 预测 。 当 使 用 协同 过 滤 进 行 粗 粒度 召回 时 ， 则 
可 以 减少 模型 的 计算 量 。 本 实验 通过 使 用 XGBoost 算法 和 融 
合 协同 过 滤 的 XGBoost 算法 进行 对 比 , 当 最 大 树 深 和 从 代 次 
数 分 别 为 5、50 和 11、200 时 ， 模 型 准确 率 最 高 。 实 验 结果 
如 图 2 所 示 。 
图 2 的 评测 结果 显示 ， 在 全 部 候选 集中 进行 预测 ， 将 
会 消耗 大 量 的 时 间 ， 融 合 协同 过 滤 的 XGBoost 算法 ， 由 于 协 
同 过 滤 的 召回 ， 减 少 了 模型 的 计算 量 ， 提 高 了 模型 的 执行 效 
率 。 


4) 模型 效果 对 比分 析 
式 (2) 可 知 ， 基 于 话题 的 用 户 相似 度 与 基于 内 容 的 用 
户 相似 度 相 比 ， 后 者 具有 更 好 的 推荐 效果 。 使 用 式 (1) (2) 
得 到 的 结论 ， 然 后 使 用 协同 过 滤 、XGBoost 算法 、 协 同 过 滤 
与 XGBoost 相 融 合 的 三 种 算法 分 别 进行 内 容 推荐 , 其 在 线 上 
的 评测 结果 如 图 3 所 示 。 


的 效 


本 次 评测 


图 4 的 训 
Skip-gram 推荐 算法 相 比 ， 融 合 


单个 模型 的 效果 更 好 。 
评测 结果 对 比分 析 
共 进 行 12 次 结果 提交 , 选 出 8 次 评测 最 高 分 ， 
计算 出 平均 分 作为 最 终结 果 。 部 分 获奖 选手 的 最 终 成 绩 如 图 


测 结果 显示 ， 与 基于 会 话 的 推荐 算法 和 基于 


协同 过 滤 的 XGBoost 推荐 算 


1.96 


Session- SNp- UserCF+ ltem 
based gram XGBoost embedding 


model 


加 4 部 分 获奖 用 户 评测 得 分 


Fig. 4. Evaluation score of partial award-winning users 


有 较 好 的 推荐 效果 ， 与 基于 项 目 嵌入 的 推荐 算法 相 上 


全 


推荐 效果 略 差 一 些 。 古 


品 


] 
Y 亚 不 ， 


冷 


户 的 历史 交互 记录 很 少 甚至 没有 ， 所 以 无 


bp 分 用 户 进行 推荐 。 而 对 于 XGBoost 推荐 算法 ， 其 需 
了 候选 集 进行 计算 ， 从 而 导致 计算 量 的 增加 ， 耗 时 增 
多 ;同时 候选 集 内 容 过 多 也 会 导致 准确 率 的 降低 。 融 合 协同 
过 滤 算 法 可 以 增加 准确 率 ， 降 低 计算 量 ，XGBoost 算法 可 以 
解决 协同 过 滤 的 冷 启 动 问 题 ， 同 时 可 以 增加 准确 率 ， 因 此 模 


E 线 上 评测 环境 中 ， 不 同 选手 分 配 的 推 
f 体 不 同 ， 在 评测 得 分 上 存在 不 确定 因素 ,局 
Ph， 模 型 或 者 参数 的 调整 也 会 直接 影响 最 终 的 订 


时 在 12 
EF 测 
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得 分 。 但 是 真实 的 线 上 评测 环境 能 够 直接 反映 模型 的 推荐 效 


齐 德 法 ， 


二 


果 ， 与 使 用 离线 数据 集 相 比 ， 其 结果 更 具有 参考 价值 。 
4 ”结束 语 
本 文 主要 针对 推荐 系统 中 用 户 的 冷 启 动 问题 进行 改进 ， 


将 协同 过 滤 算 法 和 XGBoost 算法 进行 融合 , 首先 使 用 协同 过 
滤 方 法 进行 内 容 的 粗 粒度 召回 , 然后 使 用 XGBoost 算法 进行 
精确 召回 。 本 算法 解决 了 用 户 冷 启动 问题 ， 提 高 了 模型 的 执 
行 效率 ,提升 了 模型 的 预测 能 力 ,能 够 为 用 户 准 确 推 荐 项 目 。 
同时 ， 本 文 也 存在 不 足 之 处 ， 在 模型 的 训练 过 程 中 未 使 用 用 
户 历 史 交 互 的 时 间 序 列 特征 。 因 此 ， 下 一 步 的 工作 将 在 模型 
中 加 入 用 户 历 史 交 互 的 时 间 序 列 特征 ， 使 模型 达到 更 优 的 推 
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